<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no" name="viewport"/>
  <title>
   Editor: 电子商务顾客评论的热点话题分析  | 数螺 | NAUT IDEA
  </title>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap-theme.min.css" rel="stylesheet"/>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap.min.css" rel="stylesheet"/>
  <style type="text/css">
   #xmain img {
                  max-width: 100%;
                  display: block;
                  margin-top: 10px;
                  margin-bottom: 10px;
                }

                #xmain p {
                    line-height:150%;
                    font-size: 16px;
                    margin-top: 20px;
                }

                #xmain h2 {
                    font-size: 24px;
                }

                #xmain h3 {
                    font-size: 20px;
                }

                #xmain h4 {
                    font-size: 18px;
                }


                .header {
	           background-color: #0099ff;
	           color: #ffffff;
	           margin-bottom: 20px;
	        }

	        .header p {
                  margin: 0px;
                  padding: 10px 0;
                  display: inline-block;  
                  vertical-align: middle;
                  font-size: 16px;
               }

               .header a {
                 color: white;
               }

              .header img {
                 height: 25px;
              }
  </style>
  <script src="http://cdn.bootcss.com/jquery/3.0.0/jquery.min.js">
  </script>
  <script src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML" type="text/javascript">
   MathJax.Hub.Config({
          tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']]},
          TeX: {equationNumbers: {autoNumber: "AMS"}}
        });
  </script>
  <script src="http://nautstatic-10007657.file.myqcloud.com/static/css/readability.min.js" type="text/javascript">
  </script>
  <script type="text/javascript">
   $(document).ready(function() {
                 var loc = document.location;
                 var uri = {
                  spec: "http://cos.name/2016/05/e-commerce-customer-reviews-hot-topic-analysis/",
                  host: "http://cos.name",
                  prePath: "http://cos.name",
                  scheme: "http",
                  pathBase: "http://cos.name/"
                 };
    
                 var documentClone = document.cloneNode(true);
                 var article = new Readability(uri, documentClone).parse();
     
                 document.getElementById("xmain").innerHTML = article.content;
                });
  </script>
  <!-- 1466463376: Accept with keywords: (title(0.142857142857):电子商务,门户网站,服务平台,统计学,评论,热点话题,中国, topn(0.433333333333):电子书,子类,信息,类别,热点话题,语料,数据分析,翻页,结果,模型,评价,纯度,数据,网页,效果,矩阵,用户,词汇,消费者,结构化,电子商务,方法,主题,爬虫,闪屏,评论,产品,聚类,屏幕,文本).-->
 </head>
 <body class="single single-post postid-12095 single-format-standard sidebar" onload="">
  <div class="header">
   <div class="container">
    <div class="row">
     <div class="col-xs-6 col-sm-6 text-left">
      <a href="/databee">
       <img src="http://nautidea-10007657.cos.myqcloud.com/logo_white.png"/>
      </a>
      <a href="/databee">
       <p>
        数螺
       </p>
      </a>
     </div>
     <div class="hidden-xs col-sm-6 text-right">
      <p>
       致力于数据科学的推广和知识传播
      </p>
     </div>
    </div>
   </div>
  </div>
  <div class="container text-center">
   <h1>
    Editor: 电子商务顾客评论的热点话题分析
   </h1>
  </div>
  <div class="container" id="xmain">
   <div class="hfeed site" id="page">
    <header class="site-header" id="masthead" role="banner">
     <div id="cos-logo">
      <a href="http://cos.name/">
       <img src="http://cos.name/wp-content/themes/COS-kermesinus/images/headers/cos-logo.png"/>
      </a>
     </div>
     <div class="navbar" id="navbar">
      <nav class="navigation main-navigation" id="site-navigation" role="navigation">
       <h3 class="menu-toggle">
        菜单
       </h3>
       <a class="screen-reader-text skip-link" href="http://cos.name/2016/05/e-commerce-customer-reviews-hot-topic-analysis/#content" title="跳至内容">
        跳至内容
       </a>
       <div class="menu-%e6%88%91%e7%9a%84%e8%8f%9c%e5%8d%95-container">
        <ul class="nav-menu" id="menu-%e6%88%91%e7%9a%84%e8%8f%9c%e5%8d%95">
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-home menu-item-4746" id="menu-item-4746">
          <a href="http://cos.name">
           主页
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-8120" id="menu-item-8120">
          <a href="http://cos.name/cn">
           论坛
          </a>
          <ul class="sub-menu">
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8124" id="menu-item-8124">
            <a href="http://cos.name/cn/wp-login.php?action=register">
             论坛注册
            </a>
           </li>
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8125" id="menu-item-8125">
            <a href="http://cos.name/cn/wp-login.php">
             论坛登录
            </a>
           </li>
          </ul>
         </li>
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-8110" id="menu-item-8110">
          <a href="http://cos.name/books/">
           图书资料
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8112" id="menu-item-8112">
          <a href="http://cos.name/videos">
           视频教程
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8333" id="menu-item-8333">
          <a href="http://cos.name/salon/">
           统计沙龙
          </a>
         </li>
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-8111" id="menu-item-8111">
          <a href="http://cos.name/chinar/">
           R语言会议
          </a>
         </li>
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-8109" id="menu-item-8109">
          <a href="http://cos.name/training/">
           讲座与培训
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8115" id="menu-item-8115">
          <a href="http://cos.name/cn/forum/comprehensive/job/">
           招聘信息
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-4780" id="menu-item-4780">
          <a href="http://cos.name/about">
           关于我们
          </a>
          <ul class="sub-menu">
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8113" id="menu-item-8113">
            <a href="http://cos.name/2008/11/how-to-work-with-cos/">
             加入我们
            </a>
           </li>
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8119" id="menu-item-8119">
            <a href="http://cos.name/donate/">
             赞助我们
            </a>
           </li>
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8114" id="menu-item-8114">
            <a href="http://cos.name/cn/forum/26">
             项目合作
            </a>
           </li>
          </ul>
         </li>
        </ul>
       </div>
       <form action="http://cos.name/" class="search-form" method="get" role="search">
        <label>
         <span class="screen-reader-text">
          搜索：
         </span>
        </label>
       </form>
      </nav>
      <!-- #site-navigation -->
     </div>
     <!-- #navbar -->
    </header>
    <!-- #masthead -->
    <div class="site-main" id="main">
     <div class="content-area" id="primary">
      <div class="site-content" id="content" role="main">
       <article class="post-12095 post type-post status-publish format-standard hentry category-featured category-website tag-996 tag-997 tag-634 tag-995" id="post-12095">
        <header class="entry-header">
         <h1 class="entry-title">
          电子商务顾客评论的热点话题分析
         </h1>
         <div class="entry-meta">
          <span class="date">
           <a href="http://cos.name/2016/05/e-commerce-customer-reviews-hot-topic-analysis/" rel="bookmark" title="链向电子商务顾客评论的热点话题分析的固定链接">
            <time class="entry-date" datetime="2016-05-26T10:27:39+00:00">
             2016/05/26
            </time>
           </a>
          </span>
          <span class="categories-links">
           <a href="http://cos.name/category/website/featured/" rel="category tag">
            推荐文章
           </a>
           、
           <a href="http://cos.name/category/website/" rel="category tag">
            统计之都
           </a>
          </span>
          <span class="tags-links">
           <a href="http://cos.name/tag/%e6%96%87%e6%9c%ac%e5%88%86%e6%9e%90/" rel="tag">
            文本分析
           </a>
           、
           <a href="http://cos.name/tag/%e7%83%ad%e7%82%b9%e8%af%9d%e9%a2%98/" rel="tag">
            热点话题
           </a>
           、
           <a href="http://cos.name/tag/%e8%81%9a%e7%b1%bb/" rel="tag">
            聚类
           </a>
           、
           <a href="http://cos.name/tag/%e9%a1%be%e5%ae%a2%e8%af%84%e8%ae%ba/" rel="tag">
            顾客评论
           </a>
          </span>
          <span class="author vcard">
           <a class="url fn n" href="http://cos.name/author/editor/" rel="author" title="查看所有由COS编辑部发布的文章">
            COS编辑部
           </a>
          </span>
         </div>
         <!-- .entry-meta -->
        </header>
        <!-- .entry-header -->
        <div class="entry-content">
         <p>
          <strong>
           作者：
          </strong>
          蔡越
          <span style="font-size: 12px; line-height: 0px;">
          </span>
          (厦门大学经济学院统计系)，郭鹏（厦门数析信息科技有限公司），
         </p>
         <p>
          方匡南（厦门大学经济学院统计系，厦门大学数据挖掘研究中心）
         </p>
         <p>
          <strong>
           摘要
          </strong>
          : 买家的评论文本数据是电子商务领域一种重要的数据形式，通过对其分析，电商卖家可以直接了解顾客对产品的态度与建议，提取顾客关注的热点问题，也可以进行顾客分类，实现精准营销，改进和提高生产和服务等；买家可以提取所关注属性的相关评价，了解舆论情感倾向，提高购物决策效率。但是大数据环境下海量文本的出现给文本数据的有效利用带来了一定的困难，比如结构化处理后的文本数据的高维特性给电子商务文本聚类等分析带来了新的挑战。本文主要研究当词条数目（变量数）远远大于评论文本数（样本数）时如何归纳顾客评论以及提取热点话题。本文抓取了亚马逊中国站热门产品kindle的评论文本，通过惩罚高斯混合模型聚类方法，同时进行文本聚类和有效词条的筛选，实现了大规模评论文本的有效、快速、自动聚类，为后续更加精细的商业分析提供了良好的基础。
         </p>
         <p>
          <strong>
           关键词
          </strong>
          ：顾客评论；文本分析；聚类；热点话题
         </p>
         <p>
          <span id="more-12095">
          </span>
         </p>
         <h5>
          一、业务介绍
         </h5>
         <p>
          电子商务数据分析根据数据类型可以划分为以下几个方面：1）用户行为数据的分析，也可以称为事件分析，包括用户点击、浏览、收藏、购买等行为流程的分析；2）顾客信息分析，包括顾客年龄、性别、地区、交易模式、偏好等数据的分析；3）产品信息分析，包括产品参数、门类等，以实现优化产品结构、库存管理等；4）文本数据分析，包括用户评论文本数据以及外部可搜集的舆论文本等；5）业绩数据分析，例如通过对比营销前后的业绩数据检验营销手段效果等。分析流程包括数据的收集、整理、存储、管理、调用、分析、应用、检验、调整等。具体的研究方向涉及到电子商务网络平台的优化，用户行为分析,海量数据处理,营销因素研究等。以上分析的角度与方法贯穿于整个电子商务运行的生命周期，在信息科技飞速发展、数据急速扩张的时代，及时意识到数据分析的重要性并将其充分运用到商业经营当中，对于电子商务领域有着极其重要的意义。通过一系列的数据分析，电子商务运营方可以达到优化运营、完善产品、精准营销、维护吸引用户、创造良好口碑、知己知彼的健康运作状态。
         </p>
         <p>
          2016年1月22日，中国互联网络信息中心(CNNIC)发布的第37次《中国互联网络发展状况统计报告》显示，截至2015年12月，我国网络购物用户规模达到4.13亿，较2014年底增加5183万，增长率为14.3%，与此同时，手机网络购物用户规模增长迅速，达到3.40亿，手机网络购物的使用比例由42.4%提升至54.8%，随之而来的是网民在各种网络平台上所发表的购物观点、意见等的激增，这些评论文本包含了消费群体对所购买的商品或者服务的情感态度等信息，反映了用户通过互联网对产品各方面发表的看法，对电子商务平台销售者以及个体消费者都有重要的分析价值。Deloitte Consumer Products Group调查显示，有67%的网民会浏览在线评论，其中82%认为在线评论影响了他们的购买决策，可见，在线评论引发的电子口碑已不容小觑，通过评论分析，商家能够了解市场对产品的看法，发现与竞争对手的差异，为产品改进、价格优化等提供有价值信息。具体来讲，透过商品评论，销售者可以直接了解到当前出售产品的评论热点、提取产品优势和不足、挖掘顾客建议，甚至提前预测顾客需求，达到指导生产服务的目的；另外与商家的促销信息相比，在线评论具有独立性、非商业性，因此深得用户信赖，与此同时，由于缺少线下体验，更多的用户倾向于先看评论，后做决策，通过查看商品评价，消费者可以迅速了解到其他顾客对商品的评价、锁定关注属性的相关评价，支持消费决策。所以说，电子商务评论文本蕴含了顾客产品评分、销售数据等无法涵盖的重要信息，对评论文本的归纳与挖掘可以实现相关信息的提取，进而为产品经营乃至产品购买提供一定的决策支持
          <sup>
           [1]
          </sup>
          。
         </p>
         <p>
          在大数据的时代背景下，电子商务领域也面临着数据急剧扩张的问题，评论文本也是如此，尤其是热门销售产品，其评论文本可以在短时间内达到极高的累计值，此时进行评论文本的人工阅读与分析不仅耗费时间和精力，也无法确保分析的准确性和全局性，所以有必要借助于数据分析手段以及自然语言处理等方法来实现文本的快速、准确分析
          <sup>
           [2]
          </sup>
          。聚类分析是一种自动、快速实现评论文本信息挖掘的有效方式。通过对顾客评论文本聚类，可以实现热点话题的自动识别，提取产品的优势与不足，指导生产与营销，并实现顾客的有效划分，为后续更加精准的分析提供良好的分析基础。但是，文本数据经过结构化处理后，往往存在高维特性，即词条数目远远大于评论文本数，需要在聚类前或者聚类过程中进行变量（特征）筛选以改善聚类效果。综合考虑互联网的文本数据文本容量庞大、表述歧义性、类属中介性等特性，以及模型聚类在处理互联网的文本数据时理论和实效方面的优势，本文选取惩罚高斯混合模型对文本数据进行聚类分析，在进行聚类特征筛选的同时改善了聚类效果，实现了电子商务评论文本热点话题的自动、高效聚类。
         </p>
         <h5>
          二、数据描述
         </h5>
         <p>
          本文所使用的评论文本数据都通过网络爬虫获取。所谓网络爬虫，是按照一定的规则，自动地抓取
          <a href="http://baike.baidu.com/view/7833.htm">
           网络
          </a>
          信息的程序或者脚本，将互联网上的网页下载到本地形成一个互联网内容的镜像备份。传统爬虫按照访问网页地址，即访问统一资源定位器（Uniform Resource Locator，URL），从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。由于本文主要分析对象是电子商务平台顾客产品评论语料，并关注实证层面，所以采用基于产品编码的爬取方式，即选定某种研究产品垂直爬取目标网页的评论文本等数据，采用R语言、Python语言编写网络爬虫或利用其他开源爬虫程序（如Gooseeker）完成数据获取、解析、存储与调用。
         </p>
         <p>
          我们抓取了亚马逊中国站上热门产品“kindle”电子书阅读器下“kindle”、“kindle paperwhite”、“kindle voyage”三个子类产品的商品评论语料，抓取的期间为2014年10月3日至2015年8月24日，抓取的字段包括：project_id、source_id、conment、meta、pubdate，分别代表产品大类id、产品子类id（共三个子产品，取值为1、3、4，分别对应“kindle paperwhite”、“kindle voyage”和“kindle”）、产品评论、产品评分（5分、4分、3分、2分、1分）和评论日期。在产品5个等级的评分中，5分为最高分，1分为最低分。理论上来讲，1、2分属于用户对产品“差评”；3分表明用户对产品给予“中评”；即用户对产品基本满意，用户的产品评价中等；4、5分为表明用户对产品给予“好评”，即用户的产品评价最高。抓取评论文本总计5477条，其中“kindle”2942条、“kindle paperwhite”902条、“kindle voyage”1633条，各子类产品语料分布情况详见表1.
         </p>
         <p style="text-align: center;">
          表1 产品各水平得分评论数汇总表
         </p>
         <table>
          <tbody>
           <tr>
            <td width="81">
             产品
            </td>
            <td width="81">
             评论总数
            </td>
            <td width="81">
             1分
            </td>
            <td width="81">
             2分
            </td>
            <td width="81">
             3分
            </td>
            <td width="81">
             4分
            </td>
            <td width="81">
             5分
            </td>
           </tr>
           <tr>
            <td width="81">
             Paperwhite
             <p>
             </p>
             <p>
              Voyage
             </p>
             <p>
              Kindle
             </p>
            </td>
            <td width="81">
             902
             <p>
             </p>
             <p>
              1633
             </p>
             <p>
              2942
             </p>
            </td>
            <td width="81">
             42
             <p>
             </p>
             <p>
              94
             </p>
             <p>
              107
             </p>
            </td>
            <td width="81">
             32
             <p>
             </p>
             <p>
              44
             </p>
             <p>
              84
             </p>
            </td>
            <td width="81">
             73
             <p>
             </p>
             <p>
              147
             </p>
             <p>
              218
             </p>
            </td>
            <td width="81">
             153
             <p>
             </p>
             <p>
              331
             </p>
             <p>
              607
             </p>
            </td>
            <td width="81">
             602
             <p>
             </p>
             <p>
              1017
             </p>
             <p>
              1926
             </p>
            </td>
           </tr>
          </tbody>
         </table>
         <h5>
          三、数据建模
         </h5>
         <h6>
          （一）描述性分析
         </h6>
         <p>
          在获取的三种产品评论语料中，kindle的语料数超过了50%，而kindle paperwhite评论语料最少，不足20%，详见图1。将各月评论数累积加总，绘制各月累积评论数趋势图2。
         </p>
         <p>
          <a href="http://cos.name/wp-content/uploads/2016/05/cai_1.png">
           <img src="http://cos.name/wp-content/uploads/2016/05/cai_1.png"/>
          </a>
         </p>
         <p style="text-align: center;">
          图1 三种产品评论语料占比
         </p>
         <p>
          <a href="http://cos.name/wp-content/uploads/2016/05/cai_2.png">
           <img src="http://cos.name/wp-content/uploads/2016/05/cai_2.png"/>
          </a>
         </p>
         <p style="text-align: center;">
          图2 累积评论趋势(注：横坐标,时间/月，纵坐标,评论数/条)
         </p>
         <p>
          图2上标注了各月累积评论数的最大值、最小值以及均值，累积评论在2015年7月达到了最大值，为914条，在2014年11月达到了最小值，为262条，整个研究区间内月平均评论数为498条，总体来看，各月评论数围绕该均值上下波动，且呈现上升趋势。
         </p>
         <p>
          利用Python中mmseg算法包对所有产品的评论语料进行分词，绘制词云图，输出词频最高的前60个词汇，可以直观的看出，“kindle”、“电子书”、“亚马逊”是出现次数最多的几个词汇，“分辨率”、“快递”、“背光灯”、“性价比”、“保护套”、“翻页键”等为消费者关注较多的产品属性，但是针对不同关注焦点的具体评论情况还有待于进一步的分析。
         </p>
         <p>
          从三类产品各自的词云图（图3至6）可以看出，除了“kindle”、“电子书”、“亚马逊”、“分辨率”、“快递”、“性价比”等相同的高频词汇，三个子类产品都出现了词汇“iPad”，可见多数消费者都会讲kindle与iPad进行对比；此外，“退货”问题也是关注的重点。分别来看，三种产品词云的差异之处在于：“Paperwhite”有关于“反应速度”的评论语句；“voyage”有“赠送”、“限量版”、“珍藏版”出现；“kindle”则出现“数据线”、“充电器”、“开机”、“待机时间”等高频词汇。可见，虽然消费者对三种产品都存在共性的关注点，但是针对不同的产品也有不同的侧重点。
         </p>
         <p>
          <a href="http://cos.name/wp-content/uploads/2016/05/cai_3.jpg">
           <img src="http://cos.name/wp-content/uploads/2016/05/cai_3.jpg"/>
          </a>
         </p>
         <p style="text-align: center;">
          图3 全部语料词云图
         </p>
         <p style="text-align: center;">
          <a href="http://cos.name/wp-content/uploads/2016/05/cai_4.jpg">
           <img src="http://cos.name/wp-content/uploads/2016/05/cai_4.jpg"/>
          </a>
         </p>
         <p style="text-align: center;">
          图4 Paperwhite语料词云
          <a href="http://cos.name/wp-content/uploads/2016/05/cai_5.jpg">
           <img src="http://cos.name/wp-content/uploads/2016/05/cai_5.jpg"/>
          </a>
         </p>
         <p style="text-align: center;">
          图5 Voyage语料词云
         </p>
         <p style="text-align: center;">
          <a href="http://cos.name/wp-content/uploads/2016/05/cai_6.jpg">
           <img src="http://cos.name/wp-content/uploads/2016/05/cai_6.jpg"/>
          </a>
         </p>
         <p style="text-align: center;">
          图6 kindle语料词云
         </p>
         <p>
         </p>
         <p>
          此外，在产品大类层次下，5分评论占比最多，达到65%，2分评论最少，仅为3%，整体评论趋于乐观。图8显示产品voyage 1分评价显著高于2分评价，且占比高于另外两种子产品，属于评价分布异常产品，应给予预警。
         </p>
         <p>
          <a href="http://cos.name/wp-content/uploads/2016/05/cai_7.png">
           <img src="http://cos.name/wp-content/uploads/2016/05/cai_7.png"/>
          </a>
         </p>
         <p style="text-align: center;">
          图7 总体评分占比
         </p>
         <p>
          <a href="http://cos.name/wp-content/uploads/2016/05/cai_8.png">
           <img src="http://cos.name/wp-content/uploads/2016/05/cai_8.png"/>
          </a>
         </p>
         <p>
         </p>
         <p style="text-align: center;">
          图8 各子产品评分分布
         </p>
         <h6>
          （二）模型设定
         </h6>
         <p>
          （1）文本结构化处理
         </p>
         <p>
          文本数据属于非结构化数据，要对其进行聚类分析，需要事先进行结构化处理。本文采用的结构化处理方式是构建空间向量模型，向量的权重采用TF-IDF值，即词频-逆向文件频率(Term Frequency–Inverse Document Frequency，简称TF-IDF)。文本分词处理后，由 个词汇项$w_1,w_2,\cdots,w_N$构成的包含M个文本$d_1,\cdots,d_M$
         </p>
         <p>
          的文本集合 ，的TF-IDF矩阵如表2所示：
         </p>
         <p style="text-align: center;">
          表2 文本TF-IDF矩阵
         </p>
         <p>
          <a href="http://cos.name/wp-content/uploads/2016/05/cai_0-1.png">
           <img src="http://cos.name/wp-content/uploads/2016/05/cai_0-1.png"/>
          </a>
         </p>
         <p>
          矩阵元素$tf-idf_{i,j}=tf_{i,j}\cdot idf_j$,其中：
         </p>
         <p>
          $$tf_{ij} = \frac{n_ij}{\sum_{j=1}^Nn_{i,j}} \quad \quad(1)$$
         </p>
         <p>
          $n_{i,j}$ 表示词项$\omega_j$ 在文本$d_i$中的频数，$\sum_{j=1}^Nn_{i,j}$则为文本$d_i$的总词数；
         </p>
         <p>
          $$idf_j=log \frac{|D|}{|\{i : \omega_j \in d_i\}|} \quad \quad(2)$$
         </p>
         <p>
          $|D|$为文本集合 中的总文本数， $|\{I:w_j \in d_i \}|$表示包含词项 $w_j$的总文本数，由于矩阵的稀疏性， $|\{I:w_j \in d_i \}|$ 可能趋近于零，故一般采用$idf_i=log\frac{|D|}{1+|\{i:w_j \in d_i \}|}$ 的计算形式。
         </p>
         <p>
          （2）聚类模型设定
         </p>
         <p>
          结构化处理后，每一个文本即每一条评论语料都对应着一个以词项TF-IDF值为元素的向量，对不同评论进行聚类，就是向量$d_1,\cdots,d_M$的聚类，其中$d_i = [tf-idf_{i,1},tf-idf_{i,2},\cdots,tf-idf_{i,N}](i=1,2,\cdots,M)$；记词汇向量$w_j = [tf-idf_{i,j},tf-idf_{2,j},\cdots,tf-idf_{M,j}](j=1,2,\cdots,N)$。
         </p>
         <p>
          聚类过程中，并不是所有的词汇都是聚类的相关变量，使用这些变量会增加聚类过程中的噪音，会妨碍挖掘真实的聚类结构
          <sup>
           [3]
          </sup>
          。所以，为了提高聚类效果，有必要在聚类之前或者聚类过程中进行变量筛选，减少聚类变量数目，即降低矩阵维度，来增加聚类的准确性。鉴于惩罚GMM聚类的优势
          <sup>
           [4]
          </sup>
          以及对高维文本IF-IDF矩阵聚类的适用性
          <sup>
           [5]
          </sup>
          ，本文采用惩罚GMM模型来实现文本聚类。
         </p>
         <p>
          假设文档集合服从高斯混合模型$f(d_i)=\sum_{k=1}^K\pi_kN_k(d_k;\mu_k,\Sigma_k)$ ，其中，$\pi_k$是混合比率，满足$0 \leq \pi_k \leq 1$ ，且$\sum_{k=1}^K\pi_k=1$ ，$\mu_k=(\mu_{k1},\cdots,\mu_{kj},\cdots,\mu_{kN})$ 为第k个类的高斯分布的均值向量，$\Sigma_k$ 即为相应的方差协方差矩阵。本文我们将注意力集中在高维数据上，故简单假设 $\Sigma_k=\Sigma=diag(\sigma_1^2,\cdots,\sigma_j^2,\sigma_N^2)$，即不同类的方差协方差矩阵都是相同的，并且均为对角矩阵。该模型的含义在于，观测文档数据来自由K个子类组成的总体，每个文档由第 个类生成的概率为 ，基本的思想就是为每个子类的数据分布假定了一个概率模型，并利用有限混合模型将总体模型作为这些子类模型的混合，通过逐渐逼近的方法，使得模型可以最佳拟合给定的数据集。在有限混合模型中，每一个成分对应一个类。这样关于合适的聚类方法以及聚类数目的问题转化为关于模型如何选择的问题。和通常所用的系统聚类法（或称层次聚类法）及K-means聚类法相比，基于混合模型的聚类并不是仅仅给出关于聚类样品的类标签，而是给出了每个聚类样品属于某一个类（作为模型成分的分布）的概率，并由此来决定类别的标签。
         </p>
         <p>
          对于某一给定的观测文档$d^*= [ tf-idf_1^*,  tf-idf_2^*,\cdots,tf-idf_N^*]$，可以计算$d^*$ 来自类别k的概率为：
         </p>
         <p>
          $$p_k=\frac{\pi_k}{\sqrt{2\pi} \Pi_{j=1}^N \sigma_j} exp(-\sum_{j=1}^N\frac{(tf-idf_j^*-\mu_{kj})^2}{2\sigma_j^2}),k=1,\cdots,K   （3）$$
         </p>
         <p>
          $d^*$将被归类于$p_k$最大的那一类。
         </p>
         <p>
          记 $\Theta = \{\sigma_j^2,\pi_k,\mu_{kj},k=1,\cdots,K;j=1,\cdots,N\}$作为包含所有参数的集合，给定数据$d_1,\cdots,d_n$ ，对数似然函数为：
         </p>
         <p>
          $$l_0(\Theta)=\sum_{i=1}^Mlog(\sum_{k=1}^K \pi_kN_k(d_i;\mu_k,\Sigma_k)  （4）$$
         </p>
         <p>
          设惩罚模型通式为：
         </p>
         <p>
          $$l_p(\Theta)=l_0(\Theta)-J(\Omega)\quad \quad（5）$$
         </p>
         <p>
          $$\Omega = \{\mu_{kj},k=1,\cdots,K;j=1,\cdots,p \} \quad \quad （6）$$
         </p>
         <p>
          本文选择$L_1$ 惩罚，即
         </p>
         <p>
          $$J(\Omega)=\lambda \sum_{k=1}^K\sum_{j=1}^N|\mu_{kj}|   \quad \quad （7）$$
         </p>
         <p>
          基于参数$\Theta$ 求上式的最大值通常是比较困难的，本文采用期望最大算法(expectation maximization (EM) algorithm) (Dempster, Laird, Rubin(1977))
          <sup>
           [6]
          </sup>
          ，引进隐含变量$\tau_{ik}$ ，为  $d_i$是否来自于类别k的示性函数，即当 来自于类别k时，$\tau_{ik}=1$ ，否则$\tau_{ik}=0$ ，如果可以获得数据$\tau_{ik}$ 的观测值，以上的对数似然函数就可以转换为：
         </p>
         <p>
          $$ l_p(\Theta) =  \sum_{i=1}^M \sum_{k=1}^M \tau_{ik}(log\pi_{k} + logN_k(N_i; \mu_k,\Sigma)) – J(\Omega)  \quad \quad（8）$$
         </p>
         <p>
          对式（8）求解即可得到未知参数估计值以及相应的聚类结果
          <sup>
           [7]
          </sup>
          。
         </p>
         <h5>
          （三）模型估计结果
         </h5>
         <p>
          从抓取的评论语料中抽取部分语料人工进行评论主题标注，以标准主题为类别标准，对比不同聚类方法的聚类效果进行对比评价。标注评论语料总计57条，共标注为6个主题，基本构成如2表所示。
         </p>
         <p style="text-align: center;">
          表2 标注语料构成
         </p>
         <table>
          <tbody>
           <tr>
            <td width="96">
             类别序号
            </td>
            <td width="96">
             语料条数
            </td>
            <td width="90">
             标注主题
            </td>
            <td width="96">
             类别序号
            </td>
            <td width="97">
             语料条数
            </td>
            <td width="93">
             标注主题
            </td>
           </tr>
           <tr>
            <td width="96">
             1
             <p>
             </p>
             <p>
              2
             </p>
             <p>
              3
             </p>
            </td>
            <td width="96">
             11
             <p>
             </p>
             <p>
              5
             </p>
             <p>
              11
             </p>
            </td>
            <td width="90">
             闪屏
             <p>
             </p>
             <p>
              免费书少
             </p>
             <p>
              有亮点
             </p>
            </td>
            <td width="96">
             4
             <p>
             </p>
             <p>
              5
             </p>
             <p>
              6
             </p>
            </td>
            <td width="97">
             11
             <p>
             </p>
             <p>
              12
             </p>
             <p>
              7
             </p>
            </td>
            <td width="93">
             价格偏高
             <p>
             </p>
             <p>
              不伤眼
             </p>
             <p>
              轻
             </p>
            </td>
           </tr>
          </tbody>
         </table>
         <p>
          本文采用纯度(purity)和F值两个指标评价聚类系统的整体性能。假设标注的类别用L表示，共有I类，其中第i个标注类别表示为$L_i$ ，同样，假设聚类类别用K表示，共有J类，则第j个聚类类别表示为$K_j$ ，聚类结果和标注结果匹配表如表3所示。
         </p>
         <p style="text-align: center;">
          表3聚类结果匹配表
          <a href="http://cos.name/wp-content/uploads/2016/05/cai_9.png">
           <img src="http://cos.name/wp-content/uploads/2016/05/cai_9.png"/>
          </a>
         </p>
         <p style="text-align: left;">
          其中$n_{ij}$表示聚类结果j中包含的标注类别为i的样本个数，括号中的$n_i$ 表示标注的类别$L_i$ 中包含的样本数，即$n_i=\sum_{j=1}^Jn(i,j)$ 。定义聚类类别j的纯度$p(i,j)$ 如下：
         </p>
         <p style="text-align: left;">
          $$p(i,j)=\frac{\max\limits_i (n(i,j))}{\sum_{i=1}^In(i,j)} \quad \quad (9)$$
         </p>
         <p>
          定义整体聚类纯度为：
         </p>
         <p style="text-align: left;">
          $$P=\sum_{j=1}^J \frac{\sum_{i=1}^In(i,j)}{n}p(i,j) \quad \quad (10)$$
         </p>
         <p style="text-align: left;">
          $$= \sum_{j=1}^J\frac{\max\limits_i (n(i,j))}{n}$$
         </p>
         <p>
          其中，n为样本总数，该值越大，说明聚类的结果与被分析的数据越匹配，即算法的有效性越高。
         </p>
         <p>
          对于F值的定义参照信息检索的评测方法，将每个聚类结果看做查询结果，对于聚类类别j和标注类别i，有以下定义：
         </p>
         <p>
          $$precision(i,j) =\frac{n(i,j)}{\sum_{i=1}^I n(i,j)} \quad \quad（11）$$
         </p>
         <p>
          $$recall(i,j) = \frac{n(i,j)}{n_i} \quad \quad （12）$$
         </p>
         <p>
          形式类似信息检索评测的准确率和召回率。标注类别i和聚类类别j之间的f值定义为：
         </p>
         <p>
          $$f(i,j)=\frac{2 \times precision(i,j) \times recall(i,j)}{recision(i,j) + recall(i,j) }（13）
         </p>
         <p>
          最终聚类结果的评价函数F表示为:
         </p>
         <p>
          $$F=\sum_{i=1}^I\frac{n_i}{n}max(f(i,j)) \quad \quad（14）$$
         </p>
         <p>
          以聚类纯度和F值为评价指标，分别运用K-means欧式距离聚类、K-means余弦距离聚类
          <sup>
           [8][9]
          </sup>
          、惩罚高斯混合模型聚类对标注的文本进行聚类，得到的聚类效果对比汇总如表4所示。
         </p>
         <p style="text-align: center;">
          表4 不同文本聚类方法聚类指标对比
         </p>
         <table>
          <tbody>
           <tr>
            <td width="142">
            </td>
            <td width="142">
             K-means欧式距离
            </td>
            <td width="142">
             K-means余弦距离
            </td>
            <td width="142">
             惩罚GMM
            </td>
           </tr>
           <tr>
            <td width="142">
             聚类纯度
             <p>
             </p>
             <p>
              F值
             </p>
            </td>
            <td width="142">
             –
             <p>
             </p>
             <p>
              –
             </p>
            </td>
            <td width="142">
             35.09%
             <p>
             </p>
             <p>
              0.35
             </p>
            </td>
            <td width="142">
             71.93%
             <p>
             </p>
             <p>
              0.62
             </p>
            </td>
           </tr>
          </tbody>
         </table>
         <p>
          综合以上分析结果，对文本TF-IDF矩阵进行聚类时，K-means欧式距离聚类、K-means余弦距离聚类和惩罚GMM聚类三种方法中，惩罚GMM聚类效果最好，K-means余弦距离聚类其次，K-means欧式距离聚类效果最差。在处理大量文本聚类问题时，应首先考虑惩罚GMM聚类以提高聚类效果。
         </p>
         <p>
         </p>
         <h5>
          四、业务实施
         </h5>
         <p>
          本部分选取文本聚类效果最好的惩罚GMM模型对全部5477条评论语料进行聚类，最终得到8个有效聚类结果，实现了评论文本话题自动、快速聚类。通过这种文本聚类方式，即使有上千条评论语料，也可在很短的时间内准确抓取热点话题，提取消费者关注的产品属性。
         </p>
         <p>
          各个类别对应的标签以及评论数见表5，部分详细聚类结果如表6所示，同时绘制了类别的词云图（图9至12），增强结果的可读性。
         </p>
         <p style="text-align: center;">
          表5 聚类结果分布
         </p>
         <table>
          <tbody>
           <tr>
            <td width="142">
             类别标签（主题）
            </td>
            <td width="142">
             评论数
            </td>
            <td width="142">
             类别标签（主题）
            </td>
            <td width="142">
             评论数
            </td>
           </tr>
           <tr>
            <td width="142">
             喜欢
             <p>
             </p>
             <p>
              感觉好
             </p>
             <p>
              翻页闪屏
             </p>
             <p>
              屏幕
             </p>
            </td>
            <td width="142">
             116
             <p>
             </p>
             <p>
              484
             </p>
             <p>
              184
             </p>
             <p>
              2056
             </p>
            </td>
            <td width="142">
             感觉不错
             <p>
             </p>
             <p>
              电子书券
             </p>
             <p>
              还好
             </p>
             <p>
              阅读
             </p>
            </td>
            <td width="142">
             200
             <p>
             </p>
             <p>
              77
             </p>
             <p>
              14
             </p>
             <p>
              243
             </p>
            </td>
           </tr>
          </tbody>
         </table>
         <p>
          从聚类结果可以看出，可以实现热点话题识别，热点话题涉及到顾客针对产品的态度、反馈的问题、提出的意见等等，这些话题的内容深刻影响着潜在消费者的购买意愿，所以销售者面对这些话题要及时作出反馈，如产品存在的问题要及时改进、消费者提出的质疑要及时回应等，只有不断发现问题、不断修正，才能在维护好既有用户的同时吸引更多的潜在顾客，创造更多的商业价值。
         </p>
         <p>
          从表5可以看出，在所有kindle评论中，超过三分之一的评论围绕“屏幕”这一话题展开，可见对于kindle这款产品人们最关心的莫过于屏幕的质量，针对主题为“屏幕”的评论文本类，可以进一步提取顾客对屏幕属性的评价，发现反馈最多的问题包括：阴阳屏、屏幕亮点、屏幕发黄、分辨率低等等，这就为产品质量的提升指出了明确的方向；另外，“翻页闪屏”问题也颇受关注，消费者反馈，kindle系列产品在翻页时存在闪屏现象，导致阅读体验大打折扣；此外，“喜欢”、“感觉好”、“感觉不错”三个文本类都表现了消费者对kindle这款产品积极的评价态度，在一定程度上有助于商家快速了解顾客评价倾向，以便及时作出经营策略调整；“电子书券”文本类中包含77条评论，通过查看评论文本，得知，kindle voyage 这一款产品在销售时许诺赠送100元电子书券，但是很多顾客反映并未收到电子书券并要求商家做出解释，针对这种类型的聚类结果，销售者应予以重视并及时与顾客沟通，最小化事件不良影响，营造产品良好口碑。
         </p>
         <p style="text-align: center;">
          表6 聚类结果汇总
         </p>
         <table>
          <tbody>
           <tr>
            <td>
             类标签
            </td>
            <td width="51">
             评论数
            </td>
            <td width="466">
             评论语料
            </td>
           </tr>
           <tr>
            <td rowspan="6">
             喜欢
            </td>
            <td rowspan="6" width="51">
             116
            </td>
            <td width="466">
             挺喜欢的，有一些小缺陷，但也没有其他评论说的那么恐怖
            </td>
           </tr>
           <tr>
            <td width="466">
             女朋友是很爱看书的类型 但是携带起来不太方便 就给她买了kindle 她说很喜欢 手感也很好
            </td>
           </tr>
           <tr>
            <td width="466">
             不错的电子书阅读器，给女儿买的，看来她很喜欢
            </td>
           </tr>
           <tr>
            <td width="466">
             很喜欢，可以好好阅读了
            </td>
           </tr>
           <tr>
            <td width="466">
             很喜欢，感觉像宝藏一样的，去哪都可以带着它，可以利用很多碎片时间来看书，太阳底下也很清楚哦，喜欢读书的你们，赶快下手吧，你不会后悔的：）
            </td>
           </tr>
           <tr>
            <td width="466">
             ……
            </td>
           </tr>
           <tr>
            <td rowspan="6">
             翻页闪屏
            </td>
            <td rowspan="6" width="51">
             184
            </td>
            <td width="466">
             似乎反应不是很灵敏, 要很长时间才能翻页. 另外, 没有纸制的说明书
            </td>
           </tr>
           <tr>
            <td width="466">
             之前使用kp2，确实有闪屏，但看书时就会被书的内容吸引，闪屏问题就会潜意识忽略了。kp3相比，性能提升了很多，很细腻，体验很好。培养看书习惯之良品
            </td>
           </tr>
           <tr>
            <td width="466">
             第一次用这电子阅读器，翻页效果一闪一闪的，实在受不了
            </td>
           </tr>
           <tr>
            <td width="466">
             总体还不错 四星是因为价格稍贵和无法避免的闪屏 背光很有用 亮度也可以调节
            </td>
           </tr>
           <tr>
            <td width="466">
             每次翻页都会闪两下  对于眼睛来说不是很舒服  但时间长了就习惯了
            </td>
           </tr>
           <tr>
            <td width="466">
             ……
            </td>
           </tr>
           <tr>
            <td rowspan="6">
             感觉不错
            </td>
            <td rowspan="6" width="51">
             200
            </td>
            <td width="466">
             第一次买kindle，刚好新出了一款，感觉还是不错的
            </td>
           </tr>
           <tr>
            <td width="466">
             用了一段时间，感觉还不错。也没碰到常见的商品问题。
            </td>
           </tr>
           <tr>
            <td width="466">
             不错，300ppi果然好多了啊
            </td>
           </tr>
           <tr>
            <td width="466">
             用来看书不错，反应速度有点迟钝
            </td>
           </tr>
           <tr>
            <td width="466">
             第一个发光不均匀，售后和快递服务都不错。拍照，技术确认，很快就给发了个新的。新的还不错，使用再看看
            </td>
           </tr>
           <tr>
            <td width="466">
             ……
            </td>
           </tr>
          </tbody>
         </table>
         <p style="text-align: center;">
          <strong>
           <a href="http://cos.name/wp-content/uploads/2016/05/cai_9_1.png">
            <img src="http://cos.name/wp-content/uploads/2016/05/cai_9_1.png"/>
           </a>
          </strong>
         </p>
         <p style="text-align: center;">
          图9 话题“喜欢”词云图
         </p>
         <p>
          <strong>
           <a href="http://cos.name/wp-content/uploads/2016/05/cai_10.png">
            <img src="http://cos.name/wp-content/uploads/2016/05/cai_10.png"/>
           </a>
          </strong>
         </p>
         <p>
          <strong>
           <br/>
          </strong>
          <strong>
           <br/>
          </strong>
         </p>
         <p>
         </p>
         <p>
         </p>
         <p>
         </p>
         <p>
         </p>
         <p>
         </p>
         <p>
         </p>
         <p>
         </p>
         <p>
         </p>
         <p style="text-align: center;">
          图10 话题“翻页闪屏”词云图
          <a href="http://cos.name/wp-content/uploads/2016/05/cai_11.png">
           <img src="http://cos.name/wp-content/uploads/2016/05/cai_11.png"/>
          </a>
         </p>
         <p style="text-align: center;">
          图11话题“不错”词云图
         </p>
         <p>
          <a href="http://cos.name/wp-content/uploads/2016/05/cai_12.png">
           <img src="http://cos.name/wp-content/uploads/2016/05/cai_12.png"/>
          </a>
         </p>
         <p style="text-align: center;">
          图12话题“电子书券”词云图
         </p>
         <h5>
          五、总结与讨论
         </h5>
         <p>
          本文从电子商务文本数据分析需求出发，针对文本数据结构化处理后高维稀疏的特性，提出将惩罚高斯混合模型应用于文本聚类，以纯度和F值两个指标为评价标准，利用人工标准主题的语料验证了惩罚高斯混合模型聚类方法在评论文本聚类方面的优越性，最后将其应用到亚马逊热门产品kindle的评论分中，得到8个有效聚类，即8个热点话题，结合产品特点以及业务需求，参照聚类结果提出了产品和服务的具体改进建议。
         </p>
         <p>
          本文的研究重点集中于文本数据的结构化处理和文本聚类两个方面，虽然取得了较好的分析效果，但是不论在研究方法还是研究深度上都还有改进空间。在文本聚类方面，降维处理可采用的惩罚函数有多重形式，本文只考虑了L1范数惩罚，并未考察分组或分层等惩罚形式
          <sup>
           [10]
          </sup>
          ，所以未来有必要进一步针对文件聚类的更加高效的方法；此外，在聚类分析的基础上有必要进行更加深入的文本挖掘探索，如文本情感分析、产品属性评价提取等，实现评论文本更加全面、细致的分析，充分挖掘文本信息的价值，为电子商务经营提供更加精准的建议。
         </p>
         <p>
         </p>
         <p>
         </p>
         <p>
          <strong>
           参考文献
          </strong>
         </p>
         <p>
          [1] Dave K, Lawrence S, Pennock D M. Mining the peanut gallery: Opinion extraction and semantic classification of product reviews[C]//Proceedings of the 12th international conference on World Wide Web. ACM, 2003: 519-528.
         </p>
         <p>
          [2] 王和勇, 蓝金炯. 面向海量高维数据的文本主题发现[J]. 情报杂志, 2015, 34(11),162-167.
         </p>
         <p>
          [3] 张亮, 李敏强. 一种有限混合模型对无监督文本聚类的广义方法[J]. 模式识别与人工智能, 2007, 20(5),698-703.
         </p>
         <p>
          [4] Pan W, Shen X. Penalized model-based clustering with application to variable selection[J]. The Journal of Machine Learning Research, 2007, 8, 1145-1164.
         </p>
         <p>
          [5] Willett P. Document clustering using an inverted file approach[J]. Journal of Information Science, 1980, 2(5), 223-231.
         </p>
         <p>
          [6] Dempster A P, Laird N M, Rubin D B. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the royal statistical society. Series B (Statistical Methodology), 1977, 1-38.
         </p>
         <p>
          [7] Maugis-Rabusseau C, Michel B. Adaptive density estimation for clustering with Gaussian mixtures[J]. ESAIM: Probability and Statistics, 2013, 17, 698-724.
         </p>
         <p>
          [8] Hatagami Y, Matsuka T. Text mining with an augmented version of the bisecting k-means algorithm[C]//Neural Information Processing. Springer Berlin Heidelberg, 2009, 352-359.
         </p>
         <p>
          [9] Yao M, Pi D, Cong X. Chinese text clustering algorithm based k-means[J]. Physics Procedia, 2012, 33: 301-307.
         </p>
         <p>
          [10] Zhao P, Rocha G, Yu B. Grouped and hierarchical model selection through composite absolute penalties[J]. Department of Statistics, UC Berkeley, Tech. Rep, 2006, 703.
         </p>
         <div class="wumii-hook">
          <br/>
          <br/>
         </div>
        </div>
        <!-- .entry-content -->
        <footer class="entry-meta">
         <div class="author-info">
          <div class="author-avatar">
           <img src="http://sdn.geekzu.org/avatar/2fe058e9e383c85afa949b36e869432f?s=74&amp;d=monsterid&amp;r=g"/>
          </div>
          <!-- .author-avatar -->
          <div class="author-description">
           <h2 class="author-title">
            关于COS编辑部
           </h2>
           <p class="author-bio">
            本账户为COS编辑部公共账户，目前由朱雪宁任主编，王小宁任副主编，编辑有：冯璟烁、吴佳萍、张心雨、施涛、霍志骥、何通、冷静、尤晓斌、肖楠、邱怡轩、高涛、谢益辉等人，主要负责主站文章的规范化编辑以及相关论文、书籍、手册的整理、编纂、出版等工作。
            <a class="author-link" href="http://cos.name/author/editor/" rel="author">
             查看所有由COS编辑部发表的文章
             <span class="meta-nav">
              →
             </span>
            </a>
           </p>
          </div>
          <!-- .author-description -->
         </div>
         <!-- .author-info -->
        </footer>
        <!-- .entry-meta -->
       </article>
       <!-- #post -->
       <nav class="navigation post-navigation" role="navigation">
        <h1 class="screen-reader-text">
         文章导航
        </h1>
        <div class="nav-links">
         <a href="http://cos.name/2016/05/credit-scoring-model-in-internet-credit-reporting/" rel="prev">
          <span class="meta-nav">
           ←
          </span>
          互联网征信中的信用评分模型
         </a>
         <a href="http://cos.name/2016/05/search-sequence-see-high-end-business-cars/" rel="next">
          从搜索序列文本看高端商务车
          <span class="meta-nav">
           →
          </span>
         </a>
        </div>
        <!-- .nav-links -->
       </nav>
       <!-- .navigation -->
       <div class="comments-area" id="comments">
        <div class="comment-respond" id="respond">
         <h3 class="comment-reply-title" id="reply-title">
          发表评论
          <small>
           <a href="http://cos.name/2016/05/e-commerce-customer-reviews-hot-topic-analysis/#respond" id="cancel-comment-reply-link" rel="nofollow" style="display:none;">
            取消回复
           </a>
          </small>
         </h3>
         <form action="http://cos.name/wp-comments-post.php" class="comment-form" id="commentform" method="post" novalidate="">
          <p class="comment-notes">
           <span id="email-notes">
            电子邮件地址不会被公开。
           </span>
           必填项已用
           <span class="required">
            *
           </span>
           标注
          </p>
          <p class="comment-form-comment">
           <label for="comment">
            评论
           </label>
           <textarea aria-required="true" cols="45" id="comment" maxlength="65525" name="comment" required="required" rows="8">
           </textarea>
          </p>
          <p class="comment-form-author">
           <label for="author">
            姓名
            <span class="required">
             *
            </span>
           </label>
          </p>
          <p class="comment-form-email">
           <label for="email">
            电子邮件
            <span class="required">
             *
            </span>
           </label>
          </p>
          <p class="comment-form-url">
           <label for="url">
            站点
           </label>
          </p>
          <p class="form-submit">
          </p>
          <p style="display: none;">
          </p>
          <p style="display: none;">
          </p>
         </form>
        </div>
        <!-- #respond -->
       </div>
       <!-- #comments -->
      </div>
      <!-- #content -->
     </div>
     <!-- #primary -->
     <div class="sidebar-container" id="tertiary" role="complementary">
      <div class="sidebar-inner">
       <div class="widget-area">
        <aside class="widget widget_text" id="text-3">
         <h3 class="widget-title">
          关注统计之都
         </h3>
         <div class="textwidget">
          <ul>
           <li>
            新浪微博
            <a href="http://weibo.com/cosname">
             @统计之都
            </a>
           </li>
           <li>
            人人网
            <a href="http://renren.com/cosname">
             @统计之都
            </a>
           </li>
           <li>
            Twitter
            <a href="http://twitter.com/cos_name">
             @cos_name
            </a>
           </li>
          </ul>
         </div>
        </aside>
        <aside class="widget widget_text" id="text-6">
         <h3 class="widget-title">
          微信公众平台
         </h3>
         <div class="textwidget">
          <img src="http://cos.name/wp-content/uploads/2013/04/qrcode-8cm.jpg"/>
          <p style="font-size:12px;margin-left:15px">
           微信号 CapStat
          </p>
          <p>
           我们将第一时间向您推送主站和论坛的精彩内容，以及统计之都的线下活动、竞赛、培训和会议信息。
          </p>
         </div>
        </aside>
        <aside class="widget widget_text" id="text-8">
         <h3 class="widget-title">
          站内导航
         </h3>
         <div class="textwidget">
          <ul>
           <li class="page_item">
            <a href="http://cos.name/cn/">
             中文论坛
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/videos/">
             视频
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/salon/">
             统计沙龙
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/books/">
             图书出版
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/training/">
             教育培训
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/about/">
             关于我们
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/donate/">
             捐赠
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/chinar/">
             R语言会议
            </a>
           </li>
          </ul>
         </div>
        </aside>
        <aside class="widget widget_links" id="linkcat-2">
         <h3 class="widget-title">
          友情链接
         </h3>
         <ul class="xoxo blogroll">
          <li>
           <a href="http://stat.ruc.edu.cn" target="_blank" title="中国人民大学统计学院网站">
            中国人民大学统计学院
           </a>
          </li>
          <li>
           <a href="http://rucdmc.net">
            中国人民大学数据挖掘中心
           </a>
          </li>
          <li>
           <a href="http://birc.gsm.pku.edu.cn/" target="_blank">
            北京大学商务智能研究中心
           </a>
          </li>
          <li>
           <a href="http://sam.cufe.edu.cn/" target="_blank" title="中央财经大学统计与数学学院网站">
            中央财经大学统计与数学学院
           </a>
          </li>
          <li>
           <a href="http://tjx.cueb.edu.cn/" target="_blank" title="首都经济贸易大学统计学院网站">
            首经贸统计学院
           </a>
          </li>
          <li>
           <a href="http://www.shookr.com/">
            数客网大数据社区
           </a>
          </li>
          <li>
           <a href="http://www.xueqing.tv/" target="_blank" title="数据科学在线学习平台">
            雪晴数据网
           </a>
          </li>
          <li>
           <a href="http://iera.name/" target="_blank" title="IERA是一个旨在普及、传播和增进工业工程知识的非营利性网站">
            IERA（直通IE）
           </a>
          </li>
         </ul>
        </aside>
        <aside class="widget widget_categories" id="categories-2">
         <h3 class="widget-title">
          全部分类
         </h3>
         <label class="screen-reader-text" for="cat">
          全部分类
         </label>
         <select class="postform" id="cat" name="cat">
          <option value="-1">
           选择分类目录
          </option>
          <option class="level-0" value="925">
           cos访谈  (4)
          </option>
          <option class="level-0" value="659">
           图书出版  (5)
          </option>
          <option class="level-0" value="379">
           数学方法  (14)
          </option>
          <option class="level-1" value="381">
           分析与代数  (1)
          </option>
          <option class="level-1" value="380">
           概率论  (9)
          </option>
          <option class="level-1" value="382">
           随机过程  (5)
          </option>
          <option class="level-0" value="210">
           数据分析  (81)
          </option>
          <option class="level-1" value="203">
           多元统计  (3)
          </option>
          <option class="level-1" value="42">
           数据挖掘与机器学习  (42)
          </option>
          <option class="level-1" value="36">
           生物与医学统计  (17)
          </option>
          <option class="level-1" value="35">
           计量经济学  (4)
          </option>
          <option class="level-1" value="296">
           金融统计  (3)
          </option>
          <option class="level-1" value="303">
           风险精算  (7)
          </option>
          <option class="level-0" value="177">
           模型专题  (15)
          </option>
          <option class="level-1" value="38">
           回归分析  (10)
          </option>
          <option class="level-1" value="41">
           时间序列  (2)
          </option>
          <option class="level-0" value="784">
           每周精选  (24)
          </option>
          <option class="level-1" value="183">
           可视化  (9)
          </option>
          <option class="level-0" value="967">
           沙龙纪要  (3)
          </option>
          <option class="level-0" value="18">
           经典理论  (46)
          </option>
          <option class="level-1" value="37">
           抽样调查  (3)
          </option>
          <option class="level-1" value="4">
           统计推断  (26)
          </option>
          <option class="level-1" value="236">
           试验设计  (7)
          </option>
          <option class="level-1" value="39">
           非参数统计  (3)
          </option>
          <option class="level-0" value="1">
           统计之都  (279)
          </option>
          <option class="level-1" value="884">
           中国R会议  (2)
          </option>
          <option class="level-1" value="885">
           中国R语言会议  (5)
          </option>
          <option class="level-1" value="446">
           出国留学  (3)
          </option>
          <option class="level-1" value="179">
           推荐文章  (90)
          </option>
          <option class="level-1" value="3">
           新闻通知  (75)
          </option>
          <option class="level-1" value="263">
           统计刊物  (10)
          </option>
          <option class="level-1" value="174">
           网站导读  (40)
          </option>
          <option class="level-1" value="204">
           职业事业  (51)
          </option>
          <option class="level-1" value="213">
           高校课堂  (9)
          </option>
          <option class="level-0" value="178">
           统计计算  (28)
          </option>
          <option class="level-1" value="40">
           优化与模拟  (15)
          </option>
          <option class="level-1" value="43">
           贝叶斯方法  (6)
          </option>
          <option class="level-0" value="378">
           软件应用  (116)
          </option>
          <option class="level-1" value="44">
           统计图形  (36)
          </option>
          <option class="level-1" value="110">
           统计软件  (83)
          </option>
         </select>
        </aside>
        <aside class="widget widget_recent_comments" id="recent-comments-2">
         <h3 class="widget-title">
          最新评论
         </h3>
         <ul id="recentcomments">
          <li class="recentcomments">
           <span class="comment-author-link">
            fineboom
           </span>
           发表在《
           <a href="http://cos.name/2016/06/use-shiny-fleetly-set-up-visual-prototype-system/#comment-7317">
            利用shiny包快速搭建可视化原型系统
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            胡家新
           </span>
           发表在《
           <a href="http://cos.name/2016/06/r%e8%af%ad%e5%8d%83%e5%af%bb%e7%ac%ac%e4%b8%89%e6%9c%9f%ef%bc%9a%e5%bc%a0%e6%97%a0%e5%bf%8c%e7%a9%b6%e7%ab%9f%e7%88%b1%e8%b0%81%ef%bc%9f/#comment-7316">
            R语千寻第三期：张无忌究竟爱谁？
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            <a class="url" href="http://www.zijiacha.com/category.php?id=6" rel="external nofollow">
             南糯山普洱茶
            </a>
           </span>
           发表在《
           <a href="http://cos.name/2016/06/r%e8%af%ad%e5%8d%83%e5%af%bb%e7%ac%ac%e4%b8%89%e6%9c%9f%ef%bc%9a%e5%bc%a0%e6%97%a0%e5%bf%8c%e7%a9%b6%e7%ab%9f%e7%88%b1%e8%b0%81%ef%bc%9f/#comment-7315">
            R语千寻第三期：张无忌究竟爱谁？
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            J
           </span>
           发表在《
           <a href="http://cos.name/2016/05/value-of-the-reputation-from-the-data/#comment-7314">
            数据告诉你：高信誉的卖家应该收高价，还是收低价？
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            <a class="url" href="http://gg" rel="external nofollow">
             Hilda
            </a>
           </span>
           发表在《
           <a href="http://cos.name/2013/01/drawing-map-in-r-era/#comment-7311">
            R时代，你要怎样画地图？
           </a>
           》
          </li>
         </ul>
        </aside>
        <aside class="widget widget_rss" id="rss-282869971">
         <h3 class="widget-title">
          <a class="rsswidget" href="http://cos.name/cn/topics/feed/">
           <img src="http://cos.name/wp-includes/images/rss.png"/>
          </a>
          <a class="rsswidget" href="http://cos.name/cn/topics/feed/">
           中文论坛新帖
          </a>
         </h3>
         <ul>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/417372/">
            处理时间数据和产生时间序列的问题
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/6790/">
            《统计陷阱》下载 （How to lie with statistics）
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/818/">
            统计学的世界（第五版）
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/16574/">
            class(x) 返回值值是AsIs,AsIs代表什么，有什么用处？
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/417366/">
            如何用R绘制一个分类算法的决策规则
           </a>
          </li>
         </ul>
        </aside>
        <aside class="widget widget_text" id="text-2">
         <h3 class="widget-title">
          登录/RSS
         </h3>
         <div class="textwidget">
          <ul>
           <li>
            <a href="http://cos.name/wp-admin/">
             登录
            </a>
           </li>
           <li>
            <a href="http://cos.name/feed/" title="使用 RSS 2.0 同步站点内容">
             文章
             <abbr title="Really Simple Syndication">
              RSS
             </abbr>
            </a>
           </li>
           <li>
            <a href="http://cos.name/comments/feed/" title="RSS 上的最近评论">
             评论
             <abbr title="Really Simple Syndication">
              RSS
             </abbr>
            </a>
           </li>
          </ul>
         </div>
        </aside>
       </div>
       <!-- .widget-area -->
      </div>
      <!-- .sidebar-inner -->
     </div>
     <!-- #tertiary -->
    </div>
    <!-- #main -->
    <footer class="site-footer" id="colophon" role="contentinfo">
     <div class="site-info">
      版权所有 © 2014 统计之都 | 由
      <a href="http://wordpress.org/">
       WordPress
      </a>
      构建 | 主题修改自
      <a href="http://wordpress.org/themes/twentythirteen">
       Twenty Thirteen
      </a>
     </div>
     <!-- .site-info -->
    </footer>
    <!-- #colophon -->
   </div>
   <!-- #page -->
   <p style="margin:0;padding:0;height:1px;overflow:hidden;">
    <a href="http://www.wumii.com/widget/relatedItems" style="border:0;">
     <img src="http://static.wumii.cn/images/pixel.png"/>
    </a>
   </p>
  </div>
 </body>
</html>